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摘要 : 近年 来 ， 船 舶 智能 化 的 发 展 对 船舶 目标 的 检测 与 分 类 精度 要 求 越 来 越 高 ， 准 确 检测 并 识别 船舶 
的 类 型 及 判断 船舶 的 位 置 是 船舶 安全 航行 重要 保障 。 由 于 船舶 目标 光学 成 像 过 程 中 易 受 到 风 、 流 、 雨 、 
雾 等 外 部 背景 环境 影响 ， pia re oa ro de EIR; 同时， 船舶 类 型 多 样 、 形 
态 各 异 以 及 几何 尺寸 大 小 等 因素 均 使 得 船舶 目标 的 检测 和 识别 存在 一 定 的 困难 。 鉴 于 此 ， 本 文 提 
> 法 用 以 提高 光学 影像 中 船舶 目标 的 检测 精度 。 该 方法 采用 着 
积 神经 网 络 (Convolutional Neural Networks) 对 图 像 子 以 特征 提取 ， eat 进 的 基于 CSPDarkNet 骨干 
网 络 以 及 多 尺度 网 络 以 实现 船 载 光学 摄像 头 对 水 上 船舶 目标 的 准确 检测 ， 提 高 模型 对 小 目标 和 密集 目 
标的 检测 精度 。 同 时 利用 标签 平滑 化 来 防止 模型 陷入 过 拟 合 ， ee ns 实 
验 结果 表明 本 文 所 提出 的 方法 在 Ship-Detection 数据 集 上 均值 的 平均 精 度 (Mean Average Precision, mAP) 
可 达 84.80%, 4 Faster-RCNN, CO-DETR 等 先前 目标 检测 的 研究 方法 相 比 ， 检 测 效 果 更 好 ， 更 具备 
潜在 的 应 用 优势 。 
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Abstract: In recent years, there has been an increasing demand for higher detection and classification accuracy 
of ship targets to enable safe ship navigation, driving the development of ship intelligence. However, the 
performance of deep learning-based ship target detection algorithms is affected by the optical imaging process 
of ship targets, which can be easily disrupted by environmental factors such as wind, current, rain, and fog. 
Additionally, the diverse range of ship types, morphologies, and sizes pose challenges for accurate detection and 
identification of ship targets. To address these challenges, this paper proposes a multi-scale neural network-based 
target detection method for improving the accuracy of ship target detection in optical images. The proposed 
method employs a Convolutional Neural Networks (CNN) to extract image features. The improved backbone of 
CSPDarkNet and multi-scale network is used to realize the accurate detection of the ship-bome optical camera 


on the water ship target, and the detection accuracy of the model for small targets and dense targets is improved. 


Furthermore, label smoothing to prevent overfitting, and non-maximum suppression to reduce repetitive 


detections. Experimental results demonstrate that the proposed model achieves accurate detection of ship targets 


on water and can be used for the detection of small and intensive targets. The mean average precision (mAP) of 


the proposed method on the Ship-Detection dataset reaches 84.80, which outperforms previous research methods 


such as Faster-RCNN, DINO and offers greater potential for practical applications. 
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1 基于 多 尺度 的 船舶 目标 检测 网 络 


我 们 的 网 络 模 型 结构 分 为 输入 层 、 上 骨干 网 络 、 有 颈 部 网 络 以 及 输出 层 四 个 部 分 。 整 体 的 网 络 模型 是 
一 种 One-Stage 的 目标 检测 ， 如 图 1 所 示 。 在 骨干 网 络 中 ， 我 们 采用 基于 CSPDarkNet 的 基本 框架 ， 
并 使 用 更 强大 的 基本 构建 块 〈 见 1.1) 来 提升 模型 的 准确 性 ， 并 且 据 此 来 调整 颈 部 网 络 中 模型 的 深 
度 、 宽 度 和 分 辩 率 等 参数 〈 见 1.2)。 在 开始 训练 之 前 的 输入 层 中 使 用 Mosaic 方法 进行 数据 增强 〈 见 
1.3)。 与 此 同时 ， 我 们 采用 标签 平滑 方法 作为 正则 化 方法 ， 同 时 使 用 Focal-Loss02 和 GIUE JH 
RR BOR LEAL CSL 1.4)。 整 体 的 网 络 模型 算法 结构 图 如 图 1 所 示 。 
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图 1 基于 多 尺度 的 船舶 目标 检测 网 络 模型 算法 结构 区 


1.1 改进 的 骨干 网 络 


我 们 采用 改进 的 CSPDarkNetl151 作 为 骨干 网 络 ， 传 统 的 基本 构建 块 如 2.a Aras, FA 1xl 和 3x3 两 
层 卷 积 组 成 。 考 虑 到 船舶 有 时 候 的 分 布 较为 密集 ， 并 且 在 目标 检测 中 较 大 的 有 效 感 受 野 对 于 密集 检测 
任务 更 有 效 081， 在 其 基本 构建 块 中 保留 3x3 的 卷 积 并 且 采 用 5x5 的 深度 卷 积 ， 从 而 增加 有 效 感受 野 ， 
如 2.b 所 示 。 由 于 改进 后 的 基本 构建 块 中 增加 了 卷 积 层 的 个 数 ， 这 会 导致 检测 速度 的 降低 ， 所 以 我 们 
减少 了 基本 构建 块 的 使 用 量 ， 并 且 对 整体 的 网 络 做 出 了 一 些 修改 ， 使 得 最 终 的 效果 最 好 。 我 们 所 使 用 
的 骨干 网 络 整体 结构 图 如 图 所 示 。 
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(a) (b) 
图 2 不 同 骨 干 网 络 中 的 基本 构建 块 。(a) CSPDarkNet 中 所 采用 的 基本 构建 块 。 由 1X1 和 3X3 两 层 卷 积 组 成 。(b) 
我 们 所 采用 的 改进 的 基本 构建 块 。 通 过 引入 5x5 的 Depthwise 卷 积 从 而 增加 有 效 感受 野 ， 并 且 通 过 该 卷 积 降低 运算 
成 本 。 
此 外 ， 图 中 每 个 卷 积 层 后 需要 跟 一 个 BatchNormH0 和 一 个 ReLUIDU 激 活 函 数 ， 其 计算 方式 如 
F: 


F(X) =ReLU (BN(Conv2d(x))) (1) 


其 中 BN 表示 批量 归 一 化 ， 虽 然 在 输入 层 已 经 对 数据 进行 归 一 化 的 预 处 理 ， 但 是 对 于 深层 神经 网 
络 来 说 ， 在 训练 过 程 中 参数 的 更 新 仍然 会 造成 参数 的 剧烈 变化 ， 这 种 变化 通常 会 影响 到 最 终 训练 出 来 
模型 的 效果 ， 因 此 每 次 卷 积 运算 之 后 需要 在 进行 一 次 归 一 化 。ReLU 激活 函数 表达 形式 如 下 : 


G(X) = Max(0,X) (2) 


使 用 ReLU 与 其 他 激活 函数 相 比 计算 更 为 简单 001， 并 且 可 以 使 一 部 分 的 参数 输出 为 0， 减少 了 参 
数 之 间 的 相互 关系 ， 有 利于 提升 目标 检测 的 速度 。 


Type Filters Size Output 
Convolutional 32 3x3/2 320x320 
Convolutional 32 3x3 320x320 
Convolutional 64 3x3 320x320 
Convolutional 64 3x3/2 320x320 
Convolutional 128 3x3 

Depthwise Convolutional 128 5x5 

Pointwise Convolutional 128 1x1 
Avgpool 160x160 
Convolutional 256 3x3/2 160x160 

Convolutional 256 3x3 


Depthwise Convolutional 256 
Pointwise Convolutional 256 


Avgpool 80x80 
Convolutional 512 3x3/2 80x80 
Convolutional 512 3x3 


Depthwise Convolutional 512 
Pointwise Convolutional 512 


Avgpool 40x40 
Convolutional 1024 3x3/2 40x40 

Maxpool 5x5 

Maxpool 5x5 

Maxpool 5x5 
Convolutional 1024 3x3 


Depthwise Convolutional 1024 
Pointwise Convolutional 1024 
Avgpool 20x20 


图 3 我 们 所 采用 的 骨干 网 络 整体 结构 


1.2 颈 部 网 络 


对 于 目标 检测 任务 来 说 ， 多 尺度 特征 金字 塔 是 必 不 可 少 的 。 所 谓 的 多 尺度 是 对 信号 的 不 同 颗粒 进 
行 采集 ， 利 用 不 同 尺度 下 能 够 观察 到 不 同 特征 ， 从 而 完成 不 同 尺寸 的 检测 任务 。 本 文 船舶 目标 检测 任 
务 中 的 颈 部 网 络 在 骨干 网 络 提取 的 特征 基础 上 进一步 特征 融合 ， 帮 助 网 络 感知 不 同 尺 度 上 的 目标 ， 并 
提供 更 多 上 下 文 信息 。 

为 了 适应 骨干 网 络 的 改变 ， 并 且 考 虑 到 训练 速度 因素 ， 我 们 在 颈 部 网 络 中 拓展 基本 构建 块 ， 将 更 
多 的 计算 放 在 颈 部 网 络 完成 ， 从 而 在 速度 与 精度 上 获得 更 好 的 权衡 。 
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1.3 数据 增强 
我 们 使 用 Mosaic 方法 处 理 数据 集 ， 其 主要 思想 是 将 四 张 图 片 进行 随机 裁剪 ， 再 拼接 到 一 张 图 片 


上 进行 训练 。 这 样 处 理 数 据 不 仅 可 以 增加 数据 的 多 样 性 ， 使 用 比 图 像 个 数 多 的 原 图 进行 训练 ， 还 能 增 
昌 模 型 的 鲁 棒 性 ， 让 模型 具有 泛 化 能 力 。 
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图 4 使 用 Mosaic 方法 拼接 的 船舶 检测 图 像 


1.4 损失 函数 


由 于 图 像 中 会 含有 不 同类 别 的 船舶 ， 同 时 存在 类 别 非常 少 的 数据 ， 如 帆船 含量 极 少 ， 因 此 本 文 针 
对 这 类 问题 本 文采 用 Focal Loss! 作为 本 文 的 损失 函数 ， 其 具体 的 计算 方式 如 下 : 


一 D) logio(p) ify=1 (3) 
—(1 — a)p" logyo(1— p) ify =0 


RP, r2, aN 0.25, Focal Loss 关注 大 样本 数据 ， 较 其 他 的 损失 函数 仅 针对 存在 预测 标注 的 
样本 数据 进行 约束 ， 导 致 输出 图 像 边界 的 数据 无 法 得 到 约束 ， 当 同一 训练 样本 中 存在 大 量 无 标注 数据 
时 会 出 现 梯 度 爆 炸 的 情况 。 

同时 针对 算法 预测 的 定位 框 作为 损失 函数 的 约束 对 象 ， 即 GIoU Losst3]， 使 模型 预测 出 的 边界 与 
专家 标注 的 边界 之 间 度 量 距离 降低 ， 其 具体 计算 方式 如 下 : 


Intersection (y, y) 


IoU Loss = — logy x (4) 
Un (y.y) 
A 
C\Int ti i 

GIoU = IoU — SOP oy) (5) 


其 中 ，Intersection 表 示 两 个 定位 框 之 间 的 交集 ，Un 表 示 两 个 定位 框 之 间 的 并 集 ，C 为 最 小 的 定 
位 框 在 图 像 中 所 占 的 面积 。 可 以 得 到 两 个 定位 框 之 间 的 交 并 比 ， 而 以 两 个 定位 框 之 间 的 交 并 比 为 约 
束 ， 可 以 降低 预测 与 实际 物体 之 间 的 度量 距离 。 


2 多 尺度 模型 检测 模型 优化 
2.1 非 极 大 值 抑制 


在 目标 检测 任务 中 ， 通 常会 生成 大 量 的 定位 框 ， 可 能 同一 例 实例 中 会 存在 大 量 位置 相 似 重 登 框 ， 
采用 非 极 大 值 抑 制 ， 从 一 系列 重 受 框 中 选择 出 最 佳 的 边界 框 ， 仅 保留 一 定 范围 内 概率 最 大 的 边界 框 ， 
其 具体 计算 方式 如 下 : 
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遍 设置 为 0.5， 目 标 检测 中 常设 置 为 0.7， 仅 供 参 考 )， 即 对 超过 
导 分 设置 为 0， 如 此 一 轮 过 后 ， 在 剩 下 检测 框 中 继续 寻 
登 的 框 。 这 样 基 本 可 以 做 到 


概率 趋 近 于 1， 使 得 模型 对 于 了 


在 传统 的 one-hot 编码 标签 的 深度 学 习 网 络 训练 过 程 中 ， 
近 于 优化 目标 /类 别 的 1， 其 中 非 目 标 / 类 别 则 约束 至 0， 即 在 最 终 网 络 输 H 


合 或 者 梯度 爆炸 的 情况 ， 这 时 1 


化 的 方法 ， 对 标签 进行 平滑 。 


3 ”实验 与 结果 分 析 
3.1 数据 集 构建 


在 深度 学 习 的 数据 集 占 着 决定 性 的 作 ) 


其 中 各 个 类 别 的 约束 方向 都 希望 无 限 趋 
的 预测 张 量 中 目标 类 别 的 
E 确 标签 和 错误 标签 间 的 方差 过 大 ， 但 会 降低 模型 的 稳健 性 ， 出 现 过 拟 
RI FOR SS es HY ta A ea TC cE ATER. AUR SP 
_fl iffi=y) 
P= fh if (i # y) i 
a=) if@=y) 
Pi = ia (9) 
Ki if (i + y) 


Ji 


j， 决 定 模型 最 终 的 检测 效果 ， 同 时 还 需要 足够 的 样本 使 和 


; 


网 络 能 够 充分 学 习 检 测 目 标的 特征 图 像 ， 因 此 构建 的 船舶 数据 集 如 表 1 所 示 . 
表 1 总 数据 集 的 分 布 情况 
名 称 总 数据 集 | 训练 集 | 测试 集 
样本 个 数 /个 7000 5600 1400 


3.2 模型 训练 


本 文采 
法 ， 每 20 个 epoch 学 习 率 乘 以 


PyTorcht41 作 为 本 模型 方法 的 深度 学 习 框 架 ， 


在 训练 过 程 中 ， 使 用 Step 学 习 率 优 化 方 
0.1， 初 始 学 习 率 为 0.0003 和 Adam5 的 优化 器 ， 训 练 的 批 次 大 小 为 


8， 本 模型 的 实验 方法 在 CUDA 11.6, PyTorch 版 本 为 1.12， 进 行 300 次 迭代 训练 。 


3.3 性 能 对 比 


对 提出 的 基于 多 尺度 的 船舶 目标 检测 算 
了 保持 训练 的 一 致 性 ， 我 们 采用 相同 的 训练 参数 《学 习 率 、 优 化 器 、 


去 与 其 


:他 基于 深度 学 习 的 


目标 检测 方法 进行 对 比试 验 ， 为 
权重 衰减 策略 等 )， 表 2 为 本 文 


YA 


提出 的 模型 算法 与 其 他 主流 算法 之 间 的 对 比 结果 ， 其 


其 中 TP 表示 真 阳性 率 〈 即 预测 为 真实 际 为 真 )，FP 为 假 阳 性 率 ， 


集 的 标注 存在 一 


定 误差 。 采 月 


7P 
mAP = 


LTP + FP 
n 


表 中 的 数据 仅仅 具备 


H mean Average Precision (mAP) 作为 评估 指标 ， 计 算 方 式 如 : 


表 2 本 文 提出 的 模型 算法 与 其 他 主流 算法 之 间 的 对 比 结果 


模型 方法 mAP@.5:.95 
Faster-rcnnts] 0.804 
Sparse R-CNN!??] 0.811 
CO-DETR!!°] 0.733 
DINO!?°] 0.845 
DDQP1 0.821 
Ours 0.848 
3.4 检测 结果 
对 算法 的 预测 结果 进行 评估 结果 ， 输 出 模型 预测 结果 。 
上 为 CO-DETR 
下 为 DINO 算法 检测 效果 ， 右 下 为 我 们 的 算法 检测 效果 。 其 


Ground Truth 只 


在 CPU 较 弱 的 机 器 J 
果 均 能 正确 检测 ， 


换 使 用 非 极 大 值 抑制 进行 限 人 


船舶 影像 目标 不 敏感 ， 出 现 了 》 
情况 检测 会 出 现 


REIA; Faster R-CNN 算法 的 候选 框 出 现 
误 检 ， 此 外 Faster R-CNN 区 域 候选 网 络 的 搜索 算法 


情况 ， 进 行 优化 设计 ， 即 减少 


RA ie 


mAP@0.5 
0.987 
0.976 
0.959 
0.987 
0.987 
0.989 


相对 参考 ， 因 为 验证 数据 


n 表示 总 样本 个 数 。 


(10) 


mAP@0.75 


0.960 
0.945 
0.882 
0.976 
0.952 
0.959 


左上 为 Faster R-CNN 算法 检测 效果 ， 中 
算法 检测 效果 ， 右 上 为 SparseR-CNN 算法 检测 效果 ， 左 下 为 DDQ 算法 检测 效果 ， 中 
中 Sparse R-CNN 和 DDQ 算法 对 小 目标 


但 是 CO-DETR 算法 对 于 重 车 影像 的 效果 较 我 们 的 算法 效 
有 50.4， 在 训练 欠 佳 的 情况 下 同样 会 出 现 漏 检 误 检 的 情况 。 
空间 单元 格 限 制 、 


1， 采 用 多 尺度 的 算法 进行 区 域 检 测 提高 对 重 登 


了 重复 ， 对 于 较为 复杂 的 


八 能 在 CPU 上 进行 运行 ， 这 使 得 
上 进行 推理 时 效率 较 低 ; CO-DETR 算法 效果 虽然 与 本 文 


提出 的 多 尺度 检测 模型 效 


ACR EE, BF SE Je A 


本 文 针 对 上 述 推 


JH 


速度 、 


目标 的 检测 精度 。 


区 域 候 选 网 络 的 复杂 度 ， 对 单元 格 限制 蔡 


Se PT 全 


- d 


= Si 
Faster R-CNN 


Sparse R-CNN 
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图 5 多 尺度 船舶 检测 模型 与 主流 模型 检测 效果 对 比 


4 结 论 


- 口 


本 文 基于 多 尺度 目标 检测 算法 模型 , 采用 骨干 网 络 与 贷 部 网 络 提取 出 感 兴趣 区 域 ， 使 用 标签 平滑 
化 等 优化 策略 对 算法 进行 改进 和 优化 ， 提 出 一 种 船舶 目标 实时 检测 的 方法 。 同 时 ， 使 用 自制 船舶 图 像 
数据 集 ， 通 过 设计 好 的 模型 在 Ubuntu 服务 器 进行 训练 ， 并 与 Faster-RCNN、CO-DETR、Sparse R- 
CNN 等 算法 进行 对 比分 析 。 实 验 结 果 表 明 : 改进 算法 的 mAP 达到 了 84.80%， 优 于 其 他 算法 ， 对 于 
小 目标 以 及 重合 影像 具有 良好 的 检测 效果 。 


参考 文献 


[1] Smith S M, Brady J M.SUSAN: A New Approach to Low Level Image Processing[J]. Int. Journal of Compuer 
Vision, 1997, 23(1):45-78. 

[2] L. Roberts Machine Perception of 3-D Solids, Optical and Electro-optical Information Processing, MIT Press 
1965 

[3] Canny, J., A Computational Approach To Edge Detection, IEEE Transactions on Pattern Analysis and Machine 
Intelligence, 8(6):679 - 698, 1986. 

[4] Fukushima,K. (2007). "Neocognitron". Scholarpedia.2(1): 1717. Bibcode: 2007SchpJ...2.1717F. doi:10.4249/s 
cholarpedia.1717. 

[5] Burke, D. L., & Ensor, J. (2017). Meta-Analysis Using Individual Participant Data: One-Stage and Two-Stage 
Approaches, and Why They May Differ. Tutorial in Biostatistics, 36(5), 855 - 875. doi:https://doi.org/10.1002 
/sim.7141. 

[6] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with 
Region Proposal Networks. doi:10.48550/ARXIV.1506.01497. 

[7] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2015). You Only Look Once: Unified, Real-Time Object 
Detection. doi:10.48550/ARXIV.1506.02640. 

[8] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.-Y., & Berg, A. C. (2016). SSD: Single Shot 
MultiBox Detector. ECCV 2016. doi:10.1007/978-3-319-46448-0_ 2. 

[9] Redmon, J., & Farhadi, A. (2016). YOLO9000: Better, Faster, Stronger. doi:10.48550/ARXIV.1612.08242. 

[10] Ioffe, S., & Szegedy, C. (2015). Batch Normalization: Accelerating Deep Network Training by Reducing 
Internal Covariate Shift. doi:10.48550/ARXIV.1502.03167. 

[11] Agarap, A. F. (2018). Deep Learning using Rectified Linear Units (ReLU). doi:10.48550/ARXIV.1803.08375. 

[12] Lin, T.-Y., Goyal, P., Girshick, R., He, K., & Dollar, P. Focal Loss for Dense Object Detection. Proceedings of 
the IEEE International Conference on Computer Vision (ICCV). 

[13] Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., & Savarese, S. (2019). Generalized Intersection 
over Union: A Metric and A Loss for Bounding Box Regression. doi:10.48550/ARXIV.1902.09630. 

[14] Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., ... & Chintala, S. (2019). Pytorch: An 
imperative style, high-performance deep learning library. Advances in neural information processing systems, 
32. 

[15] Kingma, D. P., & Ba, J. (2014). Adam: A Method for Stochastic Optimization. doi:10.48550/ARXIV.1412.6980. 

[16] Bochkovskiy, A., Wang, C.-Y., & Liao, H.-Y. M. (2020). YOLOv4: Optimal Speed and Accuracy of Object 
Detection. doi:10.48550/ARXIV.2004.10934. 

[17] Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., & Tian, Q. (2019). CenterNet: Keypoint Triplets for Object 
Detection. doi:10.48550/ARXIV.1904.08189. 

[18] Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard S. Zemel. Understanding the effective receptive field in 
deep convolutional neural networks. In NeurIPS, 2016. 

[19] Zong, Zhuofan, Guanglu Song and Yu Liu. “DETRs with Collaborative Hybrid Assignments Training.” 2023 
IEEE/CVF International Conference on Computer Vision (ICCV) (2022): 6725-6735. 

[20] Zhang, Hao, Feng Li, Shilong Liu, Lei Zhang, Hang Su, Jun-Juan Zhu, Lionel Ming-shuan Ni and Heung-yeung 
Shum. “DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object 
Detection.” ArXiv abs/2203.03605 (2022): n. pag. 

[21] Zhang, Shilong, Wang xinjiang, Jiaqi Wang, Jiangmiao Pang, Chengqi Lyu, Wenwei Zhang, Ping Luo and Kai 
Chen. “Dense Distinct Query for End-to-End Object Detection.” 2023 IEEE/CVF Conference on Computer 
Vision and Pattern Recognition (CVPR) (2023): 7329-7338. 


[22] Sun, Pei, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan 
Yuan, Changhu Wang and Ping Luo. “Sparse R-CNN: End-to-End Object Detection with Learnable 
Proposals.” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020): 14449- 
14458. 


